We extend Textual Inversion to learn pseudo-words that represent a concept at different resolutions. This allows us to generate images that use the concept with different levels of detail and also to manipulate different resolutions using language. Once learned, the user can generate images at different levels of agreement to the original concept; "A photo of $S^*(0)$" produces the exact object while the prompt "A photo of $S^*(0.8)$" only matches the rough outlines and colors. Our framework allows us to generate images that use different resolutions of an image (e.g. details, textures, styles) as separate pseudo-words that can be composed in various ways. We open-soure our code in the following URL: https://github.com/giannisdaras/multires_textual_inversion
translated by 谷歌翻译
我们定义了更广泛的腐败过程,该过程概括了先前已知的扩散模型。为了扭转这些一般的扩散,我们提出了一个称为“软得分匹配”的新目标,可以证明可以学习任何线性腐败过程的得分功能,并为Celeba提供最先进的结果。软得分匹配结合了网络中的降解过程,并训练模型以预测腐败与扩散观察相匹配的干净图像。我们表明,我们的目标在适当的规律性条件下为腐败过程的家庭学习了可能性的梯度。我们进一步开发了一种原则性的方法,以选择一般扩散过程的损坏水平和一种我们称为动量采样器的新型抽样方法。我们评估了我们的框架,腐败是高斯模糊和低幅度添加噪声。我们的方法在Celeba-64上获得了最先进的FID得分$ 1.85 $,表现优于所有以前的线性扩散模型。与香草deno的扩散相比,我们还显示出显着的计算益处。
translated by 谷歌翻译
我们证明了快速混合并表征了langevin算法的固定分布,用于反转随机加权DNN发电机。该结果将手和Voroninski的工作从有效的反转到有效的后部采样。实际上,为了提高表达性,我们建议在预训练的生成模型的潜在空间中进行后验采样。为了实现这一目标,我们在StyleGAN-2的潜在空间中训练基于分数的模型,并使用它来解决反问题。我们的框架,得分引导的中间层优化(SGILO),通过用中间层中的生成性先验代替稀疏正则化来扩展先前的工作。在实验上,我们对先前的最新面临,尤其是在低测量方案中获得了显着改善。
translated by 谷歌翻译
我们介绍了一种使用Nerf式生成模型解决逆问题的新框架。给出了单一的2-D图像和已知相机参数的3-D场景重建问题感兴趣。我们展示了天真地优化潜伏的空间,导致伪影和糟糕的新颖观看渲染。我们将此问题归因于3-D几何形状清晰的音量障碍物,并在新颖视野的渲染中变得可见。我们提出了一种新颖的辐射场正则化方法,以获得更好的3-D表面和改进的新颖观点,给定单一视图观察。我们的方法自然地扩展到一般逆问题,包括若有所述,其中仅部分地观察到单一视图。我们通过实验评估我们的方法,实现视觉改进和性能在广泛的任务中升高了基线。与以前的现有技术相比,我们的方法达到了30-40美元的MSE减免和15-25美元的LPIP损失减少。
translated by 谷歌翻译
CSGM框架(Bora-Jalal-Price-Dimakis'17)表明,深度生成前沿可能是解决逆问题的强大工具。但是,迄今为止,此框架仅在某些数据集(例如,人称和MNIST数字)上经验成功,并且已知在分布外样品上表现不佳。本文介绍了CSGM框架在临床MRI数据上的第一次成功应用。我们在FastMri DataSet上培训了大脑扫描之前的生成,并显示通过Langevin Dynamics的后验采样实现了高质量的重建。此外,我们的实验和理论表明,后部采样是对地面定语分布和测量过程的变化的强大。我们的代码和型号可用于:\ URL {https://github.com/utcsilab/csgm-mri-langevin}。
translated by 谷歌翻译
In recent years, graph neural networks (GNNs) have emerged as a promising tool for solving machine learning problems on graphs. Most GNNs are members of the family of message passing neural networks (MPNNs). There is a close connection between these models and the Weisfeiler-Leman (WL) test of isomorphism, an algorithm that can successfully test isomorphism for a broad class of graphs. Recently, much research has focused on measuring the expressive power of GNNs. For instance, it has been shown that standard MPNNs are at most as powerful as WL in terms of distinguishing non-isomorphic graphs. However, these studies have largely ignored the distances between the representations of nodes/graphs which are of paramount importance for learning tasks. In this paper, we define a distance function between nodes which is based on the hierarchy produced by the WL algorithm, and propose a model that learns representations which preserve those distances between nodes. Since the emerging hierarchy corresponds to a tree, to learn these representations, we capitalize on recent advances in the field of hyperbolic neural networks. We empirically evaluate the proposed model on standard node and graph classification datasets where it achieves competitive performance with state-of-the-art models.
translated by 谷歌翻译
时间序列预测是重要的应用领域的核心,对机器学习算法构成了重大挑战。最近,神经网络体系结构已广泛应用于时间序列的预测问题。这些模型中的大多数都是通过最大程度地减少损失函数来衡量预测偏离实际值的训练的。典型的损耗函数包括均方根误差(MSE)和平均绝对误差(MAE)。在存在噪声和不确定性的情况下,神经网络模型倾向于复制时间序列的最后观察值,从而限制了它们对现实数据的适用性。在本文中,我们提供了上述问题的形式定义,还提供了观察到问题的预测的一些示例。我们还提出了一个正规化项,对先前看到的值的复制进行了惩罚。我们在合成数据集和现实世界数据集上评估了拟议的正规化项。我们的结果表明,正则化项会在一定程度上缓解上述问题,并产生更健壮的模型。
translated by 谷歌翻译
如今,视觉变压器在几个计算机视觉任务中的最新性能,例如图像分类和动作识别,因此非常受欢迎。尽管通过采用卷积神经网络,层次结构和紧凑的形式,视觉变压器的性能得到了极大的改善,但对利用其他数据表示形式的方法的研究有限,以完善从变形金刚网络的多头关注的注意力图。这项工作提出了一种新型的注意机制,称为Multi-manifold注意,可以替代基于变压器网络中的任何标准注意机制。提出的注意力模拟了三个不同的流形的输入空间,即欧几里得,对称的正定和格拉曼,具有不同的统计和几何特性,指导网络来考虑一组丰富的信息,描述了一组描述外观,颜色和质感的信息,图像,用于计算高度描述性的注意图。通过这种方式,指导具有拟议注意力的视觉变压器更加专注于判别特征,从而改善了分类结果,如几个知名图像分类数据集的实验结果所示。
translated by 谷歌翻译
在这项工作中,我们为UNET体系结构引入了一个受生物学启发的远程跳过连接,该连接依赖于混合图像的感知幻觉,是同时编码两个图像的图像。早期编码器特征与更深的解码器的融合允许UNET模型产生更细粒度的密集预测。尽管在细分任务中经过证明,但由于这些远程跳过连接还会导致纹理转移伪像,因此网络的好处对于密集的回归任务进行了下降加权。特别是为了深度估计,这损害了光滑度,并引入了假正边,这是由于深度地图的平滑性质而对任务有害的。拟议的Hybridskip连接显示在平衡边缘保存之间的权衡方面的性能得到了改善,以及损害光滑度的纹理转移伪像的最小化。这是通过分别在高频和低频,编码器和解码器特征之间提供的信息的适当和平衡的信息来实现的。
translated by 谷歌翻译
本文报道了机器人研究人员的见解,该洞察力参加了由德国卡尔斯鲁赫(Karlsruhe)的Kerntechnische Hilfdienst GmbH(KHG)进行的为期5天的核灾难反应现场演习。德国核工业建立了KHG,为核事故提供了机器人辅助的紧急响应能力。我们对所使用的设备进行系统描述;机器人操作员的培训计划;现场锻炼和机器人任务;练习期间遵循的协议。此外,我们还提供了基于这些观察结果来推进灾难响应机器人技术的见解和建议。具体而言,性能的主要退化来自对操作员的认知和注意力需求。此外,除了易用性外,机器人平台和模块还应旨在保持健壮和可靠。最后,由于紧急响应利益相关者通常对使用自主系统持怀疑态度,因此我们建议采用可变的自主权范式将自主机器人的能力与人类的自主机器人能力逐渐融合在一起。远程操作和自主权之间的这种中间立场可以增加最终用户的接受,同时直接减轻操作员的机器人控制负担并保持人类陆路的弹性。
translated by 谷歌翻译